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基于 多 尺度 注意 力 机 制 的 高 分 辨 率 网 络 人 体 姿 态 估计 


李 ” 丽 ， 张 荣 芬 ， 刘 宇 红 i， 陈 ” 娜 ， 张 雯 坡 
(贵州 大 学 大 数据 与 信息 工程 学 院 , 贵阳 550025) 


摘 要 : 针对 人 体 姿 态 估计 中 面 对 特 征 图 尺度 变化 的 挑战 时 ， 难 以 预测 人 体 的 正确 姿势 ， 提 出 了 一 种 基于 多 尺度 注 
意 力 机 制 的 高 分 辨 率 网 络 MSANet(multiscale-attention neb) 以 提高 人 体 姿 态 估 计 的 检测 精度 。 引 入 轻 量 级 的 金字 塔 卷 
积 和 注意 力 特征 融合 达到 更 高 效 的 完成 多 尺度 信息 的 提取 ; 在 并 行 子 网 的 融合 中 引用 自转 换 器 模块 进行 特征 增强 ， 
获取 全 局 特征 ; 在 输出 阶段 中 将 各 层 的 特征 使 用 自 适 应 空间 特征 融合 策略 进行 融合 后 作为 最 后 的 输出 ， 更 充分 的 获 
取 高 层 特征 的 语义 信息 和 底层 特征 的 细 粒 度 特征 ， 以 推断 不 可 见 点 和 被 遮挡 的 关键 点 。 在 公开 数据 集 COCO2017 上 
进行 测试 ， 实 验 结果 表明 ， 该 方法 比 基 础 网 络 HRNet 的 估计 精度 提升 了 4.2%。 
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High resolution network human pose estimation based on multi-scale attention mechanism 


Li Li, Zhang Rongfen, Liu Yuhong', Chen Na, Zhang Wenwen 
= (College of Big Data & Information Engineering, Guizhou University, Guiyang 550025, China) 


Abstract: It is difficult to predict the correct human poses when facing the challenge of the scale change of the feature map 
in the human pose estimation. To solve this problem, proposing a high-resolution network MSANet (Multiscale-Attention Net) 
based on multi-scale attention mechanism to improve the detection accuracy of human pose estimation. Introduce lightweight 
pyramid convolution and attention feature fusion to achieve more efficient extraction of multi-scale information; citing the 
self-transformer module in the fusion of parallel subnets for feature enhancement to obtain global features; in the output stage, 
The features of each layer are fused using an adaptive spatial feature fusion strategy as the final output, which more fully 
obtains the semantic information of high-level features and the fine-grained features of low-level features to infer invisible 
points and occluded key points. Tested on the public dataset COCO2017, the experimental results show that this method 
improves the estimation accuracy by 4.2% compared with the basic network HRNet. 

Key words: human pose estimation; high-resolution network; multi-scale; attention feature fusion; adaptive spatial feature fusion 


0 引言 的 学 习 ， 但 是 这 种 串 行 的 方法 容易 丢失 部 分 信息 导致 检测 结 

加 果 不 够 准确 ， 并 且 对 有 遮挡 的 图 像 难 以 检测 关键 点 ，Chen Y 
[av 人 体 姿态 估计 (human pose estimation) 是 计算 机 视觉 研究 等 00 在 2018 年 提出 的 级 联 金字 塔 网 络 (CPN) 则 采用 自 上 而 下 
mm 的 热点 之 一 ， 其 目的 是 从 给 定 的 图 像 或 视频 中 去 恢复 人 体 关 ”的 检测 策略 ， 解 决 了 SHN 造成 部 分 信息 丢失 的 问题 。 文 献 
一 节点 的 过 程 ， 同 时 也 是 计算 机 理解 人 类 动作 、 行 为 必 不 可 少 [1H] 提 出 的 Simple Baselines 相 比 SHN 和 CPN 网 络 结构 显得 


的 一 步 。 在 众多 任务 中 也 离 不 开 姿态 估计 的 研究 ， 如 视频 监 ” ”十 分 简单 ， 同 时 检测 精度 较 好 。2019 年 提出 的 高 分 辩 率 网 络 


t 


空 、 智 能 家 居 和 医疗 健康 等 。 (HRNeb02 按 弃 了 以 往 的 串联 方式 ， 采 用 了 并 行 子 网 的 方式 ， 
近年 来 ， 使 用 深度 学 习 进 行人 体 姿 态 估计 的 方法 陆续 被 通过 并 行 多 个 分 辩 率 的 分 支 ， 加 上 不 断 进 行 不 同 分 支 之 间 的 
提出 ， 且 达到 了 远 超 传统 方法 上 3 的 表现 。2014 年 ，Toshev 等 外 ”信息 交互 ， 同 时 达到 强 语义 信息 和 精准 位 置信 息 的 目的 。 然 
提出 了 深度 姿态 (DeepPose) 网 络 , 首次 将 2D 人 体 姿 态 估 计 问 而 ,尽管 HRNet 在 人 体 姿 态 估计 中 ,超越 了 其 他 所 有 基于 深 
题 由 原本 的 图 像 处 理 和 模板 匹配 问题 转换 为 卷 积 神经 网 络 度 学 习 的 方法 ， 但 当面 临 人 体 占 图 片 比例 不 同和 遮挡 严重 或 
(CNN) 图 像 特 征 提取 和 关键 点 坐标 回归 问题 。 之 后 ， 根 据 单 重 亚 时 ， 不 能 很 好 地 预测 人 体 的 正确 姿态 。 为 提取 多 尺度 信 
人 和 多 人 的 研究 , 分 为 自 下 而 上 (Down-Top) 和 自 上 而 下 (Top- 息 ， 文 献 [13] 提 出 的 金字 塔 卷 积 (PYConv)， 包 含 了 不 同 尺度 
Down) 两 种 方法 。 和 深度 的 卷 积 核 ， 能 够 增强 图 像 的 感受 野 ， 同 时 提取 深层 和 
自 下 而 上 (Down-Top)5-7 的 方法 是 先 检 测 出 人 体 关 节点 ， 浅 层 特征 ,进而 确保 了 多 尺度 特征 的 提取 , 且 相 比 标准 卷 积 ， 

再 根据 检测 出 的 关节 点 进行 关键 点 聚 类 或 者 图 匹配 的 方法 连 有 较 少 的 参数 量 和 计算 复杂 度 ; 为 解决 多 尺度 特征 融合 时 
食 成 人 体 骨 架 。 自 上 而 下 (Top-Down)E2 的 方法 是 首先 对 图 尺度 变化 和 小 目标 所 带 来 的 问题 ， 文 献 [14] 提 出 的 注意 力 特 
片 进行 目标 检测 ， 找 出 所 有 的 人 ， 然 后 将 人 从 原 图 片 中 截取 征 融 合 (AFF) 中 的 多 尺度 通道 注意 力 模 块 解决 了 在 融合 不 同 
后 输入 到 网 络 中 进行 关键 点 检测 。2016 年 提出 的 堆 冯 沙漏 网 尺度 的 特征 时 出 现 的 问题 ， 文 献 [15] 中 采用 的 自转 换 器 模块 
络 (SHN) 外 使 用 多 个 沙漏 网 络 串 行 堆 到 在 一 起 并 对 每 个 沙漏 (selftransformer) 通 过 基于 transformer 的 运作 方式 来 提取 相同 
网 络 进行 监督 学 习 ， 以 热 图 检测 的 方法 进行 人 体 关 节点 信息 尺度 内 不 同 空间 之 间 的 非 局 部 交互 ， 获 取 全 局 信息 ， 实 现 特 


工 


3 


收 稿 日 期 : 2022-03-04; 修 回 日 期 : 2022-04-22 基金 项 目 : 贵州 省 科学 技术 基金 资助 项 目 ( 黔 科 合 基础 -ZK [2021] 重点 001) 

作者 简介 : 李 丽 (1996-)， 女 ， 贵 州 毕 节 人 ， 硕 士 研究 生 ， 主 要 研究 方向 为 计算 机 视觉 、 机 器 视觉 ; 张 荣 芬 (1977-)， 女 ， 贵 州 贵 旧 人 ， 教 授 ， 博 士 ， 主 
要 研究 方向 为 机 器 视觉 、 智 能 硬件 及 智能 算法 ; 刘 宇 红 (1963-)， 男 (通信 作者 )， 贵 州 贵 阳 人 ， 教 授 ， 硕 士 ， 主 要 研究 方向 为 计算 机 视觉 智能 图 像 处 理 、 大 
数据 与 智能 物 联 (1693623574@qq.com); 陈 娜 (1995-)， 女 ， 贵 州 遵义 人 人， 硕士 研究 生 ， 主 要 研究 方向 为 图 像 语 义 分 割 ; 张 去 去 (1997-)， 女 ， 贵 州 铜仁 人 ， 
硕士 研究 生 ， 主 要 研究 方向 为 计算 机 视觉 、 机 器 视觉 . 


202205.00122v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


录用 定稿 李 丽 ， 等 : 基于 多 尺度 注意 力 机 制 的 高 分 辨 率 网 络 人 体 姿态 估计 第 39 卷 第 10 期 
征 增强 , 以 解决 多 分 辨 率 融 合 的 问题 ; 文献 [16] 提 出 的 自 适应 。 并 将 多 分 辩 率 子 网 并 行 连接 的 方法 。 其 总 体 结构 分 为 四 个 阶 


空间 特征 融合 (ASFF)， 解 决 了 不 同 层 特征 之 间 的 冲 


突 问 题 ， 段 ， 第 一 阶段 包含 一 个 子 网 ， 第 二 、 第 三 、 第 四 阶段 则 由 多 


在 空间 上 过 渡 其 他 层 的 无 用 信息 ,只 保留 有 用 信息 来 进行 融合 ， ”分 辨 率 模 块 组 成 ， 分 别 包 括 2 个 、3 个 、4 个 多 分 辨 率 模块 ， 
筷 和 底层 特征 的 细 粒 度 特征 。 多 分 辨 率 模块 如 图 1 所 示 。 在 每 一 个 子 网 之 间 通 过 反复 交换 


充分 利用 了 高 层 特征 的 语义 信 ， 


通过 对 以 上 的 研究 与 学 习 ， 针 对 人 体 姿态 估计 中 因 尺 度 ”信息 来 进行 多 分 辩 率 特征 的 融合 ， 并 始终 保留 先前 阶段 的 分 


变化 大 或 遮挡 而 导致 检测 结果 不 够 准确 的 问题 ， 以 


W32 为 姿态 估计 的 基础 网 络 , 提出 了 一 种 多 尺度 注意 力 机 制 
高 分 辨 率 网 络 ， 针 对 多 尺度 特征 提取 的 问题 ， 提 出 了 结合 金 


1 ”高 分 辩 率 网 络 


大 多 数 的 卷 积 网 络 几 乎 都 是 从 高 分 辨 率 到 低 分 率 的 结构 。 
高 分 状 率 网 络 (HRNet) 则 独 辟 新 径 , 在 卷 积 的 过 程 中 将 卷 积 后 
缩小 的 网 络 单独 作为 一 个 分 支 ， 在 整个 过 程 中 保持 特征 图 的 本 文 提 出 的 MSANet(Multiscale-Attention Net) 是 基于 
高 分 辨 率 ， 通 过 从 高 分 辩 率 到 低 分 辩 率 的 子 网 形成 多 阶段 ， HRNet 结构 进行 改进 的 ， 其 网 络 整体 结构 如 图 2 所 示 。 


HRNet- 辩 率 , 且 HRNet 最 后 的 输出 采用 融合 后 的 高 分 辩 率 特征 表示 。 


站 等 征 图 


字 塔 卷 积 和 注意 力 特征 融合 的 Pyaffneck 模块 和 Pyaffblock 
模块 ， 针 对 多 分 辩 率 融合 的 问题 ， 融 合 前 引入 自转 换 器 模块 一 卷 积 
进行 空间 特征 交互 ， 实 现 特征 增强 ， 并 在 最 后 一 个 阶段 中 将 
不 同 层 的 特征 进行 自 适应 空间 特征 融合 ， 更 加 充分 的 获取 不 一 ”上 采样 
同 尺度 之 间 的 语义 信息 和 细 粒 度 特征 ， 以 此 推断 被 遮挡 或 重 2 
车 的 关键 点 。 人 


对 


1 多 分 辨 率 模块 


Fig. 1 Multi-resolution module 


2 ”本 文 方法 
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特征 图 图像 预 处 理 MSAneck MSAblock Self Transformer 卷 积 下 采样 上 采样 ASFF 


图 2 MSANet 网 络 结构 


Fig. 


2 Msanetnetwork structure 


MSANet 网 络 分 为 4 个 阶段 ， 每 个 阶段 为 多 分 齐 


# 率 子 网 Cy CY 


的 并 行 连接 , 且 从 上 到 下 的 子 网 中 , 分辨 率 依次 减 小 12， 通 

道 数 则 依次 增加 2 倍 。 从 主干 网 络 开始 ， 由 2 个 步 长 为 3X3 

的 卷 积 对 图 像 进行 预 处 理 , 使 分 辨 率 降 为 原来 的 1/4, 通道 数 PyConv4.64: 

由 原来 的 3 变 为 64。 第 一 阶段 由 一 个 子 网 构成 ， 使 用 四 个 9, 16, 6-16 

Pyaffneck 模块 来 提取 特征 , 并 将 通道 数 变 为 32。 第 二 、 第 三 、 + 5x5. 16. G=4 

第 四 阶段 则 由 多 分 辨 率 模块 构成 ， 分 别 包含 1,4,3 个 多 分 辨 Pony4.6 3 

率 模块 ， 且 每 个 多 分 辨 率 模块 通过 使 用 不 同 分 辨 率 和 通道 数 2 

的 Pyaffblock 模块 和 自转 换 器 模块 (ST) 来 提取 特征 。 不 同 于 5x5, 16. G4 区 过 

HRNet， 本 文 将 第 四 阶段 输出 的 四 个 特征 图 采用 自 适应 空间 ei a 

特征 融合 (ASFF) 的 方法 进行 融合 后 作为 最 后 的 输出 。 ai 
本 文通 过 结合 金字 塔 卷 积 和 注意 力 特征 融合 构造 出 7x7, 16, G=8 

Ppyaffneck 模块 和 Pyaffblock 模块 ， 将 其 作为 基础 模块 ， 有效 所 

的 提取 图 像 的 多 尺度 特征 ， 然 后 在 融合 阶段 采用 自转 换 器 模 


块 实现 跨 空间 的 特征 交互 ， 即 提取 相同 尺度 内 不 同 空 间 之 间 
的 非 局 部 交互 ， 更 有 效 的 提取 和 融合 特征 ;最 后 通过 上 采样 
操作 和 自 适应 空间 特征 融合 将 经 过 反复 交换 的 信息 以 高 分 辨 
率 表征 的 形式 输出 ， 实 现 对 人 体 关键 点 的 检测 ， 从 而 进一步 2 


I 


实现 人 体 姿 态 估计 任务 。 人 > () 
2.1 多 尺度 特征 提取 (a)Pyaffneck 模块 (b)Pyaffneck 模块 

对 于 人 体 姿 态 估 计 中 关键 点 的 多 尺度 特征 的 提取 ， 本 文 图 3 Pyaffneck 模块 和 Pyaffblock 模块 
将 HRNet 的 bottleneck 模块 和 basicblock 模块 中 的 3X3 卷 积 Fig.3 Pyaffneck module and Pyaffblock module 
替换 为 金字 塔 卷 积 ， 为 克服 融合 不 同 尺度 的 特征 时 出 现 的 问 深度 学 习 以 来 ， 通 常 使 用 具有 较 小 内 核 的 卷 积 神经 网 
题 ， 本 文 使 用 AFF 模块 进行 融合 ， 提 出 的 pyaffneck 模块 和 ” ” 络 来 提取 特征 , 通常 为 3X3 卷 积 , 而 多 尺度 特征 的 提取 在 于 


pyaffblock 模块 如 图 3 所 示 。 


感受 野 的 大 小 ， 感 受 野 的 大 小 由 卷 积 核 的 大 小 决定 ， 卷 积 核 
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越 大 ， 感 受 野 越 大 ， 看 到 的 图 片 信和 
越 好 。 然 而 ， 
增加 和 计算 中 


定稿 李 丽 ， 等 : 基于 多 尺度 注意 力 


息 越 多 ， 因 此 获得 的 特征 


普通 卷 积 中 增加 卷 积 核 的 大 小 会 导致 计算 量 色 
生 能 的 降低 ， 且 普通 卷 积 单一 空间 大 小 的 单一 类 


型 的 核 , 不 能 提取 图 像 的 多 尺度 特征 。HRNet 的 bottleneck 模 
块 和 basicblock 模块 中 均 使 用 普通 卷 积 来 提取 特征 ， 使 得 网 


络 一 


定 程度 上 不 能 够 准确 地 出 检测 小 尺度 的 目标 人 体 及 正确 


的 关键 点 ， 本 文 受 文献 [13] 的 启发 ， 采 用 金字 塔 卷 积 蔡 换 
HRNet 的 bottleneck 模块 和 basicblock 模块 中 的 3X3 普通 卷 


分 组 卷 积 将 输入 特征 分 为 不 同 的 组 ， 并 为 每 个 输入 特征 组 独 
立 应 用 内 核 。 


特 和 


下 都 连接 到 所 有 的 输入 特征 ; 图 4(b), G=2, 此 时 将 输入 特 


以 提取 图 像 中 的 多 尺度 信息 。 
如 图 4 所 示 ， 为 尽 可 能 的 降低 PyConv 的 计算 量 ， 


使 用 


对 于 图 4(a)，G=1， 此 时 为 标准 卷 积 , 每 个 输出 


征 映射 分 为 两 组 ， 


并 将 每 组 使 用 独立 的 核 ， 


使 得 核 的 深度 减 


PyConv 
展 性 。 


少 了 2 倍 ; 图 4(c) 则 显示 当 G=4 时 ， 核 的 深度 减少 了 4 倍 的 
情况 。 因 此 分 组 数量 越 多 ， 连 通 性 和 核 的 深度 就 会 越 降低 ， 
且 减 少 卷 积 的 参数 数量 和 计算 成 本 。 因 此 与 标准 


卷 积 相 比 ， 
有 较 少 的 计算 量 和 参数 量 , 且 更 为 灵活 和 具有 可 扩 


Input feature maps 


Input feature maps Input feature maps 


ba 


output feature maps output feature maps output feature maps 
(a) Groups=1(standand conv) (b) Groups=2 (c) Groups=4 
图 4 分 组 卷 积 


标准 


Fig.4 Grouped convolution 
如 图 5， 人 金字 塔 卷 积 (Pyraimidal Convolution, PyConv) 与 
卷 积 的 区 别 在 于 其 包含 一 个 核 金字 塔 ， 其 中 每 一 层 为 不 


Da 


同 大 小 和 深度 的 核 ， 
大 小 来 提取 图 像 中 多 尺度 的 细节 信息 。 
入 的 特征 图 P， 
同 大 小 内 核 {R,R2,K3,…….K?} ， 通 过 


扩大 感受 野 的 同时 还 能 使 用 不 同 的 内 核 
如 图 5(b) 所 示 ， 对 输 
金字 塔 卷 积 {1,23.…n} 的 每 一 层 所 对 应 的 不 
分 组 的 方式 得 到 不 同 深度 


Pp Pp Pp 
六, 一 ,一 一 i 
的 核 全 ] 二 ] ( 绎 | ， 其 中 所 需 的 参数 为 
有 KR? 
K2.: wh tt RK? 2 ‘Ps+ 
加 “" 国 
天 天 了 
0) 
K}:— <P,+K?:P:P 
K3 
加 
FLOPs 数 为 
天 2 . 已 ‘P,(WxH)+...... 
有 
加 
， PP 
+K9 -7 Eas bs" (WXH) 
和 
站 名 
二 
”全 (WxH) 
RK? 
+K?:P:P(WxH) 


输出 特征 图 {BP PaiD, } 》 且 P+Pz + Ps +...... EE 


即 每 一 层 特征 图 按 通 道 连接 得 到 输出 特征 图 。 


同 的 卷 积 核 可 以 有 不 同 的 感受 野 ， 


包含 不 同 尺 度 和 深度 的 卷 积 核 ， 不 


较 小 感受 野 的 内 核 可 以 关 


金字 塔 卷 积 的 每 一 层 


节 信 |) 息 来 扣 


有 捉 小 目标 ， 增 加 内 核 的 大 小 可 以 捕捉 对 较 大 


示 更 可 靠 的 细节 信息 ， 且 网 络 具 


可 探索 性 。 利 用 这 种 卷 


机 制 的 高 
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积 方式 能 在 降低 计算 复杂 度 和 减少 参数 量 的 情况 下 能 够 同时 
提取 深层 和 浅 层 特征 ， 使 网 络 得 到 了 并 发 性 的 提高 。 


一 Input Feature Maps Output Feature MapS、 


一 个 8 kK FVMokemels { 


3 


Pi 


(a) 标准 卷 积 


Input Feature Maps 


让 Level 1 PyConv: Poi kernels 
(b) 金字 塔 卷 积 (PyConv) 
图 5 金字 塔 卷 积 
Fig.5 Pyramid convolution 
HRNet 的 bottleneck 模块 和 basicblock 模块 中 均 使 用 直 
楼 相 加 来 实现 特征 融合 , 这 种 方式 对 大 物体 的 检测 相对 敏感 ， 
而 对 于 小 物体 则 较 差 ， 因 此 ， 为 更 好 的 融合 语义 和 尺度 不 一 
致 的 特征 ， 本 文 将 HRNet 的 bottleneck 模块 和 basicblock 模 
块 的 相 加 部 分 使 用 AFF 模块 替换 ， 使 用 AFF 模块 不 仅 能 够 
是 取 图 像 的 多 尺度 特征 ， 相 对 于 直接 相 加 来 说 ， 还 具有 较 少 
的 参数 量 。AFF 模块 的 结构 如 图 6 所 示 ,， 在 本 文中 ,将 输入 的 
特征 信息 作为 X, 通 过 卷 积 操作 的 输出 结果 作为 Y， 且 有 特征 
图 X7sRc“% 为 AFF 的 输入 。 


Z 
(a)AFF 


(bMS-CAM 


图 6 AFF 结构 图 
Fig.6 AFF structure diagram 
AFF 的 核心 模块 为 多 尺度 通道 注意 力 模块 (MS-CAM)， 
其 结构 图 如 图 6(b) 所 示 ，MS-CAM 不 是 在 主干 网 络 中 ,而 是 
在 通道 注意 力 模 块 中 提取 局 部 本 地 和 全 局 特征 的 上 下 文 特征 。 
其 使 用 尺度 不 同 的 两 个 分 支 来 提取 通道 注意 力 权 重 ， 其 中 一 
] 全 局 平均 池 化 (Gloabl Avg Pooling) 来 提取 特征 ， 
其 计算 公式 如 下 : 
Z=M(X@Y)®X+(1-M(XOY))YY (3) 
其 中 ，Z e Reaw 为 融合 后 的 特征 , M 为 多 尺度 通道 注意 模块 
@ 指 相同 维度 向 量 的 加 法 运算 ， 指向 量 的 乘法 运算 。 
另 一 个 分 支 为 使 网 络 尽 可 能 的 较 少 参数 量 和 计算 复杂 度 ， 
只 在 注意 力 模 块 中 将 局 部 上 下 文 添加 到 全 局 上 下 文中 ， 直 接 
使 用 点 向 卷 积 (PWConv) 来 关注 通 道 的 尺度 问题 , 提取 局 部 特 
征 的 通道 注意 力 ， 利 用 输入 特征 的 每 个 空间 位 置 的 点 式 通 道 
交互 作用 ， 计 算 公 式 如 下 : 
L(X)=B(PWConv, (65(PB(PWConv, (z))))) (4) 
其 中 8 表示 BatchNom2d( ) 函数 ，5 表示 激活 函数 ReLu, PWConvl 


的 内 核 大 小 为 SxCxlxl 了 了 WConv 的 内 核 大 小 为 CxSxlxl 


202205.00122V1 
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2.2 多 分 辩 率 融合 ASFF 能 够 直接 学 习 如 何在 空间 上 过 滤 其 他 层次 的 特征 

通常 空间 上 下 文 信息 被 动 地 隐藏 在 卷 积 神经 网 络 不 断 以 便 只 保留 有 用 的 信息 用 于 组 合 ， 对 于 某 一 层次 上 的 特征 ， 
加 的 感受 野 中 ， 或 者 被 non-local 卷 积 主动 地 编码 ， 由 于 卷 积 首先 将 其 他 层次 上 的 特征 整合 并 调整 到 相同 的 分 辨 率 ， 然 后 
操作 是 通过 不 断 迭 代 使 用 来 增 大 感受 野 ， 而 这 个 不 断 迭 代 的 “训练 得 到 最 优 融合 。 本 文中 4 种 不 同 大 小 的 特征 图 分 别 为 原 
过 程 十 分 低 效 ,不 利于 最 后 最 优 解 的 求 取 且 只 考虑 局 部 区 域 ， 图 像 大 小 /14、1/8、1/116、1/32， 选 取 1/4 大 小 特征 图 的 尺寸 
忽略 了 全 局 其 他 区 域 ,并 不 能 带 来 足够 的 信息 。 为 解决 HRNet 和 通道 数 作 为 融合 标准 。 首 先 将 其 他 3 个 大 小 的 特征 图 进行 
在 多 分 辩 率 融合 阶段 中 不 断 的 使 用 上 采样 和 下 采样 而 导致 信 1X1 卷 积 ， 使 得 通道 数 转换 为 与 1/4 大 小 的 通道 数 一 致 ， 其 
息 丢 失 等 问题 ， 本 文采 用 改进 的 非 局 部 交互 (non-local ”次 对 于 1/8 大 小 的 特征 图 ， 进 行 2 倍 的 上 采样 ， 对 于 1/16 大 
interaction) 自 转换 器 模块 (ST) 在 多 分 辨 率 的 融合 阶段 获取 全 ”小 的 特征 图 ， 进 行 4 倍 的 上 采样 ， 对 于 1/16 大 小 的 特征 图 ， 
局 信息 ， 其 输出 特征 映射 与 输入 特征 映射 具有 相同 的 尺度 ， 进行 8 倍 的 上 采样 ， 使 得 4 种 特征 图 的 大 小 一 致 ， 最 后 将 4 
与 传统 的 非 局 部 交互 不 同 的 是 ， 使 用 Mixture of ”个 特征 图 恕 Xi、 Xi、X# 进行 自 适应 空间 特征 融合 ， 并 通过 
Softmaxes(MoS) 作 为 归 一 化 函数 ， 首 先 将 查询 q， 和 键 k 分 ”1X1 卷 积 后 得 到 最 后 的 输出 , 使 网 络 始 终 保持 高 分 辨 率 表征 。 


为 N 个 部 分 ， 然 后 使 用 计算 每 对 图 像 的 相似 度 得 分 ， 基 于 ASFF 的 核心 思想 是 通过 学 习 自 适应 的 调整 各 个 尺度 特 
MoS 的 归 一 化 函数 表达 式 如 下 : 征 在 融合 时 的 空间 权重 。 本 文中 调整 后 的 4 个 尺寸 、 通 道 数 
& 相同 的 特征 图 包含 了 不 同 的 细节 信息 ，ASFF 主要 实现 根据 
DD (5) 分 配 各 层 的 权重 参数 来 融合 4 个 特征 图 , 定义 er Bs er 辐 
为 权重 参数 ， 则 融合 策略 为 
其 中 ， 5% 表示 第 n 部 分 的 相似 度 得 分 ，z 是 第 n 个 聚合 权 GX tb Xe + CX t di X=Y,) (7) 
重 , 与 sofmax(wik) 相等 ,其 中 是 w 用 于 归 一 化 的 可 学 习 线性 癌 其 中 六 为 融合 后 的 特征 图 ， “orcodvs[0 且 满 足 : 
量 ,，k 是 所 有 位 置 的 算术 平均 数 。 Gn th tet des =1 (8) 
基于 Dg 和 表示 为 对 于 权重 参数 4,506; 和 dij 则 是 通过 将 总 i Xs 4 
Input: qk 个 特征 图 经 过 1x1 卷 积 得 到 的 ， 并 且 参 数 owner ne 而 经 过 
Similarity: s’,=F,,(g,,k,) contact 之 后 通过 softmax 使 得 他 们 的 范围 在 [0.1] 内 且 和 为 1， 
Weight: 计算 公式 如 下 : 
wj = Fos (S81) (6) a 2 
Output: X;=F,,(w,v)) Wj eX 4 ex ex 4 ext 
其 中 ， x 是 x 中 第 i 个 转换 后 的 特征 位 置 。 
本 文采 用 ST 模块 改进 第 二 、 第 三 、 第 四 阶段 的 多 分 辨 Se ee ee (9) 
率 融 合 模块 ， 如 图 7 所 示 ， 以 第 三 阶段 为 例 ， 由 于 ST 模块 相 
能 够 通过 注意 力 加 强 距 离 依赖 ， 扩 大 感受 野 ， 更 是 直接 实现 3 ex 
全 局 的 联系 ， 因 此 在 融合 前 加 入 该 模块 ， 为 后 续 的 信息 融 ee 
供 更 多 有 公认 时 
合 提供 更 多 有 用 的 信息 ， Oe 效果 。 3 ”实验 与 分 析 
9 3.1 数据 集 简 述 


COCO 数据 集 是 一 个 大 型 的 、 丰 富 的 物体 检测 、 分 割 和 
A 字幕 数据 集 ， 由 200000 张 图 片 组 成 ， 包 含 250000 个 标注 1 
[ 


i 


| 


个 关键 点 的 人 体 样 本 。 训练 集 上 包含 有 5700 张 图 像 , 验证 外 
上 含有 5000 张 图像 ， 测 试 集 上 有 20000 张 图 像 。 标 注 的 17 
所 加 的 关键 点 分 别 为 : 0 鼻子 ,1 左 眼 , 2 右 眼 ，3 左 耳 , 4 右 耳 ， 
5 左肩 ，6 右 肩 ，7 左 肘 ，8 右 肘 ，9 左手 腕 ，10 右手 腕 ，11 
左 层 ，12 右 导 ，13 左 膝 ，14 右 膝 ，15 左 脚 踩 ，16 右 脚 躁 。 


| 全 3.2 评估 标准 


Self Transformer 上 采样 下 采样 本 实验 在 COCO2017 数据 集 上 对 本 文 的 方法 进行 验证 
图 7 多 分 辨 率 融合 模块 评估 ， 评 估 方 法 采用 MS COCO 官方 给 定 的 OKS(Object 
Fig.7 Multi-resolution Fusion Module Keypoint Similarity) 进 行 评估 , 使 用 PCK(Percentage of Correct 
2.3 自 适 应 空间 特征 融合 Keypoints) 作 为 评估 指标 。 
人 体 姿态 估计 中 关键 点 的 预测 需要 较 大 感受 野 的 具备 充 3.3 ”实验 环境 与 设置 
分 的 语义 信息 的 低 分 变 率 高 层次 特征 ， 以 推 基 不 可 见 和 被 庶 本 实验 的 实验 环境 为 : Python3.8，PyTorch1.7.0，Linux 
挡 的 关键 点 ， 同 时 ， 也 需要 高 分 辩 率 的 低层 次 特征 进行 对 某 ” ” 系统 : Ubuntu20.04， 显 卡 : NVIDIA GeForce GTX 3090。 并 


些 关键 点 的 进一步 细 化 ， 以 此 判断 更 准 的 空间 位 置 。 为 了 充 。 在 训练 时 将 数据 集中 的 图 像 进行 预 处 理 ， 使 得 大 小 固定 为 
分 利用 高 层 特征 的 语义 信息 和 底层 特征 的 细 粒 度 特 征 ， 很 多 ”256X192， 使 用 Adam 对 网 络 进行 优化 ， 同 时 将 学 习 率 设置 
网 络 都 会 采用 金字 塔 特征 表示 输出 多 层 特征 ， 然 而 ， 不 同 尺 ”为 0.001， 训 练 周期 设置 为 210， 每 个 GPU 的 批量 大 小 设置 
度 之 间 的 不 一 致 是 基于 特征 金字 塔 的 单 镜头 检测 器 的 主要 限 “为 30。 
制 ， 在 特征 融合 时 ， 其 他 层 的 很 多 无 用 信息 也 会 融合 进来 。 3.4 实验 验证 分 析 
受到 文献 [16] 的 启发 ， 为 充分 利用 最 后 一 层 4 种 不 同 大 小 的 本 文 将 改进 的 网 络 MSANet 在 COCO 2017 数据 集 上 进 
特征 图 ， 本 文采 用 自 适 应 空间 特征 融合 (ASFF) 算 法 ， 在 最 后 行 实验 ， 并 与 其 他 网 络 在 COCO 2017 数据 集 上 的 实验 结果 
阶段 融合 多 尺度 特征 ， 利 用 融合 后 的 多 尺度 信息 实现 更 精确 。 进行 比较 。 

的 关键 点 检测 。 如 表 1 所 示 ， 将 本 文 方法 在 COCO 2017 验证 集 上 的 实 
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验 结果 与 其 


他 方法 在 COCO 2017 验 订 
实验 结果 表明 本 文 所 提出 的 网 


李 丽 


络 MSANet 相对 于 其 他 网 络 在 
人 体 姿态 估计 中 取得 了 最 好 的 效果 ,与 原 网 络 HRNet-W32 相 


FE 集 


着 NLHR 进行 对 比 ， 


比 , AP50 提高 了 $.1%, AP75 提高 了 4.1%, APM 提高 了 3.7%6， 


AP 提高 


3.9%，AR 提高 了 2.2%，mAP 提高 了 4.2%。 可 


以 看 出 ， 本 文 所 提出 的 方法 不 仅 比 其 他 


相对 于 原 网 络 来 说 提升 了 关键 点 检 洲 


网 络 的 精度 高 ， 更 是 


1 的 精确 度 。 


， 等 : 基于 多 尺度 注意 力 机 制 的 高 分 辨 率 网 络 人 体 姿态 估计 


E 提 取 性 能 及 其 少量 的 参数 量 和 训 


度 特 和 
参数 量 降低 4M 的 同 


础 上 融入 注意 力 特 征 融合 构 
提取 不 


模块 作为 基础 模块 ， 


卷 积 和 注意 力 特 征 融合 都 能 多 尺度 处 
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时 性 能 提升 了 1.8%; 
建 Pyaffneck 
同 尺度 的 引 


| 算 代价 ， 
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使 得 网 络 在 


模 


在 金字 


谷 卷 积 的 基 
和 Pyaffblock 


1 
DH 


局 


1 省 滞 


》 大 | 为 金字 塔 


参数 量 , 所 以 在 两 者 的 相 畏 
的 同时 网 络 参数 量 降 至 23. 


里 特 


征 


都 具有 


使 得 网 络 在 性 
8M; 


EE 上 提升 了 2.5% 


表 1 COCO VAL 2017 实验 结果 对 比 表 3 不 同方 法 检测 关键 点 的 PCK 值 比较 (%) 
Tab. 1 Comparison of COCO VAL 2017 experimental results Tab.3 Comparison of PCK values of key points detected by different methods 
Methods Backbone Input size Params GFLOPs mAP AP” AP APY AP' AR Methods Backbone head shoulder elbow wrist buttocks knee ankle average 
CPN ResNet-50 256x192 27M 620 686— — — 一 SimpleBaselin ResNet-50 97.0 87.7 86.1 86.6 70.6 82.0 81.8 86.7 
CPNIOHKM ResNet-50 256x192 27M 620 694 — — 一 SimpleBaselin ResNet-101 97.1 87.9 87.1 87.7 71.0 83.9 843 87.6 
SimpleBaseline ResNet-50 256x192 34M 8.90 70.4 88.6 78.3 67.177.276.3 SimpleBaselin ResNet-152 97.5 88.7 87.5 88.0 71.6 84.6 85.1 88.1 
SimpleBaseline ResNet-101 256x192 53.M 12.4 71.4 89.3 79.3 68.178.177.1 HRNet HRNet32 973 88.7 87.9 88.6 722 84.6 85.4 88.3 
SimpleBaseline ResNet-152 256x192 68.6M 15.7 72.0 89.3 79.8 68.778.977.8 HRNet HRNet48 97.5 885 88.4 89.1 715 85.4 86.0 88.5 
HRNet-W32 HRNet-32 256x192 28.5M 7.10 73.4 89.5 80.7 70.2 80.178.9 文献 [8] HRNet32 97.6 89.2 885 893 733 85.2 86.3 88.9 
文献 [8] HRNet-32 256x192 307M 8.09 748 - 712817 一 文献 [21] HRNet32 97.7 893 88.6 894 735 85.4 86.4 89.0 
文献 [21] HRNet-32 256x192 29.0M 8.20 76.0 93.6 83.7 73.3 83.578.9 MSANet HRNet32 98.2 90.1 89.1 90.0 73.8 85.8 86.5 89.8 
文献 [22] HRNet-32 256x192 29.1M 7.10 76.7 93.6 84.6 74.0 81.181.3 表 4 消融 实验 结果 
MSANet HRNet-32 256x192 28.1M 6.90 77.6 94.6 84.8 73.984.081.1 Tab.4 Results of ablation experiments 
表 2 为 将 本 文 方法 在 COCO 2017 测试 集 上 的 实验 结果 network i 
与 其 他 方法 在 COCO 2017 测试 集 上 的 结果 进行 对 比 ， 其 中 HRNet Pyconv AFF ST ASFF 
文献 [5]、 文献 [6] 和 文献 [7] 是 自 下 而 上 的 方法 , 其 余 的 都 是 自 y x x x x 28.5M 73.4 
上 而 下 的 方法 。 根 据 表 中 对 比 结果 可 看 出 ， 本 文 的 方法 在 降 y y x x x 24.5M 75.2 
低 网 络 复杂 度 及 参数 量 的 前 提 下 精度 得 到 了 一 定 的 提升 ， 且 y y y x x 23.8M 75.9 
对 于 自 上 而 下 和 自 下 而 上 的 方法 均 具 有 更 高 的 准确 度 。 Y Y Y y x 26.2M 76.8 
表 2 COCO test-dev2017 实验 结果 对 比 y y y y y 28.1M 77.6 
Tab.2 Comparison of COCO test-dev2017 experimental results 本 文 在 使 用 构建 的 Paffneck 模块 和 Pyaffblock 模块 提取 
Methods Backbone Inputsize Params GFLOPs mAP AP™ AP 多 尺度 特征 的 基础 上 使 用 自转 换 器 模块 进行 多 分 辨 率 的 融合 ， 
文献 [5] 61.8 57.1 68.2 可 以 看 出 ， 由 于 自 换 器 模块 是 一 种 改进 的 non-local， 其 出 色 
文献 [6] 66.7 62.4 72.9 的 跨 空 间 特 征 交 互 能 力 使 得 网 络 在 参数 量 增 加 2.4M 的 前 提 
文献 [7] 70.5 66.6 75.8 下 性 能 上 又 得 到 了 0.7% 的 提升 ; 在 以 上 基础 上 ， 添 加 了 自 适 应 
CPN ResNet-50 。 384x288 72.1 68.7 77.2 空间 特征 融合 模块 后 , 使 网 络 在 参数 量 仅 增加 1.9M 的 同时 性 能 
CPNIOHKM ResNet-50 。 384x288 73.0 69.5 78.1 提升 了 0.8%， 这 是 由 于 融合 时 在 空间 上 过 滤 了 无 用 信息 ， 保 留 
SimpleBaseline © ResNet-152 384x288 68.6M 15.7 73.7 70.3 80.0 有 效 信息 的 同时 加 大 了 对 小 尺度 目标 的 识别 ， 并 利用 语义 信息 
HRNet-32 HRNet-48 384x288 28.5M 160 74.9 71.3 80.9 改善 了 对 关键 点 的 检测 ， 且 其 附加 计算 成 本 也 相对 较 小 。 
文献 [8] HRNet32 384x288 307M 18.2 75.3 71.8 81.3 这 些 数据 表明 模型 中 各 模块 的 优越 性 及 其 出 色 的 性 能 使 
文献 [21] HRNet32 384x288 295M 15.2 75.2 72.9 82.8 本 文 的 方法 相对 于 原 网 络 而 言 ， 不 仅 整 体 性 能 提升 了 4.2%， 
MSANet HRNet32 384x288 27.9M 15.0 76.1 73.2 83.6 参数 量 也 减少 了 0.4M。 
本 文 将 COCO 2017 验证 集 上 大 小 为 384X288 的 图 像 进 3.6 可 视 化 实验 分 析 
行 验证 ， 通 过 计算 关键 点 正确 估计 的 比例 PCK， 即 计算 检测 为 表明 本 文 所 提出 的 网 络 模型 MSANet 在 人 体 姿 态 估计 
的 关键 点 与 其 对 应 的 Groundtruth 间 的 归 一 化 距离 小 于 设 定 中 因 光 照 、 遮 挡 或 重 琶 、 人 体 占 图 片 尺 度 较 小 和 图 像 分 辩 率 
国 值 的 比例 ， 并 将 其 与 其 他 网 络 模型 对 关键 点 估计 的 精确 度 较 低 等 影响 下 , 具有 一 定 的 鲁 棒 性 和 泛 化 能 力 及 抗 干扰 能 力 ， 
做 对 比 。 表 3 为 对 比 结果 ,其 中 head 表示 头 部 5 个 关节 点 平 本 文 进 行 了 可 视 化 实验 ， 即 将 检测 出 的 人 体 关 键 点 通过 可 视 
均值 ; shoulder 表示 肩 部 2 个 关节 点 平均 值 ; elbow 表示 肘 部 化 将 关键 点 进行 连接 , 并 与 原 网 络 HRNet 的 可 视 化 结果 进行 
2 个 关节 点 平均 值 ; wrist 表 示 腕 部 2 个 关节 点 平均 值 ;buttocks 对 比 ， 如 图 8 所 示 ， 包 含 了 多 人 人、 遮挡 或 重 亚 、 分 辩 率 较 低 
表示 辟 部 2 个 关节 点 平均 值 ;， knee 表示 膝盖 2 个 关节 点 平均 以 及 不 同 尺度 目标 的 人 体 姿 态 估计 结果 。 
值 ; ankle 表示 脚 躁 2 个 关节 点 平均 值 ，average 表示 所 有 关 其 中 , (a) 和 (b) 是 多 人 检测 ，(c) 是 对 人 体 的 背影 进行 关键 
节点 平均 值 。 根 据 表 3 的 对 比 结果 可 以 看 出 ， 本 文 的 方法 在 点 检测 ， 且 人 体 所 处 环境 光线 较 暗 ，(d) 是 对 有 跑 挡 的 人 体 背 
各 个 关节 点 的 估计 精度 上 都 有 一 定 的 提升 ， 且 达到 了 更 高 的 影 的 关键 点 检测 ，(e) 是 对 分 辩 率 较 低 的 人 体 关 键 点 检测 。 从 
平均 估计 精度 。 图 中 可 以 看 出 ，HRNet 网 络 模型 和 MSANet 网 络 模型 在 不 同 
3.5 ”消融 实验 的 情境 下 都 能 够 进行 人 体 姿 态 估计 ， 但 当 关 键 点 存在 遮挡 重 
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更 加 证 明了 本 文 所 采用 的 各 模块 的 优越 性 。 
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图 8 人 体 姿态 估计 结果 


Fig.8 Human pose estimation results 


4 ”结束 语 


本 文 提出 了 多 尺度 注意 力 高 分 辨 率 网 络 ， 有 效 提升 了 人 
体 姿态 估计 关键 点 的 检测 和 识别 问题 。 基 于 高 分 辨 率 网 络 和 
本 文 所 提出 的 Pyaffneck 和 Pyaffblock 两 个 基础 模块 的 出 色 
的 特征 提取 能 力 和 泛 化 能 力 ， 使 得 算法 学 习 多 尺度 特征 的 表 
示 时 得 到 了 有 效 的 提升 ;在 多 分 辩 率 融合 阶段 融入 非 局 部 空 
间 交 互 自转 换 器 模块 ， 使 网 络 改善 了 多 分 辩 率 阶段 的 特征 融 
合 能 力 ; 同时 对 于 输出 阶段 ， 使 用 自 适应 空间 特征 融合 策略 
可 以 获取 高 低层 的 有 效 信息 ,从 而 更 好 地 推断 出 遮挡 关键 点 ， 
进而 提升 了 该 算法 的 整体 预测 准确 度 。 所 提出 的 网 络 相 对 于 
基础 网 络 HRNet, mAP 综合 提升 了 4.2%, 且 在 不 同 环境 下 ， 
有 一 定 的 鲁 棒 性 和 准确 度 。 但 所 做 的 工作 还 有 待 改进 ， 如 
可 更 好 地 使 网 络 在 性 能 提升 的 同时 降低 网 络 的 运算 复杂 度 和 
参数 量 或 将 人 体 姿 态 估 计 运 用 于 动作 识别 是 下 一 步 所 需 研究 
的 内 容 。 
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